12 research outputs found

    Finding Semantically Related Videos in Closed Collections

    Get PDF
    Modern newsroom tools offer advanced functionality for automatic and semi-automatic content collection from the web and social media sources to accompany news stories. However, the content collected in this way often tends to be unstructured and may include irrelevant items. An important step in the verification process is to organize this content, both with respect to what it shows, and with respect to its origin. This chapter presents our efforts in this direction, which resulted in two components. One aims to detect semantic concepts in video shots, to help annotation and organization of content collections. We implement a system based on deep learning, featuring a number of advances and adaptations of existing algorithms to increase performance for the task. The other component aims to detect logos in videos in order to identify their provenance. We present our progress from a keypoint-based detection system to a system based on deep learning

    Detecting Manipulations in Video

    Get PDF
    This chapter presents the techniques researched and developed within InVID for the forensic analysis of videos, and the detection and localization of forgeries within User-Generated Videos (UGVs). Following an overview of state-of-the-art video tampering detection techniques, we observed that the bulk of current research is mainly dedicated to frame-based tampering analysis or encoding-based inconsistency characterization. We built upon this existing research, by designing forensics filters aimed to highlight any traces left behind by video tampering, with a focus on identifying disruptions in the temporal aspects of a video. As for many other data analysis domains, deep neural networks show very promising results in tampering detection as well. Thus, following the development of a number of analysis filters aimed to help human users in highlighting inconsistencies in video content, we proceeded to develop a deep learning approach aimed to analyze the outputs of these forensics filters and automatically detect tampered videos. In this chapter, we present our survey of the state of the art with respect to its relevance to the goals of InVID, the forensics filters we developed and their potential role in localizing video forgeries, as well as our deep learning approach for automatic tampering detection. We present experimental results on benchmark and real-world data, and analyze the results. We observe that the proposed method yields promising results compared to the state of the art, especially with respect to the algorithm’s ability to generalize to unknown data taken from the real world. We conclude with the research directions that our work in InVID has opened for the future

    Πέρα από τη βαθιά μάθηση: εμπλουτίζοντας αναπαραστάσεις δεδομένων για προβλήματα μηχανικής μάθησης

    No full text
    This thesis conducts an investigation on data representation approaches for Machine Learning problems, focused on representation enrichment methods from knowledge resources. The study begins with a literature review on representations for classification over text, image and audio data, where methods were grouped to broad paradigms accordingto richness of information encompassed in the produced representation to a) low-level and template-matching approaches, b) aggregation-based methods and c) deep representation learning systems. After a comparison of pros and cons between paradigms,directions of potential improvements and extensions were identified, towards enhancing the richness of encapsulated information in the representation.Subsequently, we moved on to specific proposals / extensions of representations for various learning problems, data modalities and domains, evaluated under novel applicationsand experimental evaluations. Specifically, different representations for text were evaluated for the Hate Speech Detection task on social media posts, the Automatic Summarization task for multiple domains (online articles, game reviews and social media texts),the Clustering / Event Detection task over articles and Social Media posts and the videoclassification task under a multimodal (image and audio) setting, over a variety of videodatasets, labelling configuration and domain setting. This broad collection of studies ondata representations verified the motivation of this thesis, namely that introduction of existing knowledge into representations is both under-utilized and a viable way of arriving at semantically rich features, for multiple representation extraction techniques.Given this, we reiterated potential benefits of applying enrichment to Machine Learningproblems and proceeded with a literature review of i) knowledge resources and ii) representation enrichment methods. This was conducted with respect to a classification tasksetting, considering text, images or audio data. We grouped enrichment approaches intothree broad paradigms: a) input modification b) knowledge-guided representation refinement and c) end-to-end knowledge-aware systems. This comparative literature overviewhighlighted points of improvement and under-investigated areas, which led to adopting theapproach of enriching deep neural content-based features with input modification methods. This is avenue pursued and investigated for the remainder of the thesis.Given the above, two novel representation enrichment methods were proposed, with afocus on machine learning tasks for text data. First, we implemented a word embeddingenrichment approach, using semantic information mined from the Wordnet knowledge resource. We investigated different techniques for data combination, knowledge extraction,diffusion and spread, dimensionality reduction and filtering and semantic disambiguation.We performed a large-scale experimental evaluation over multiple datasets and domains,along with statistical significance testing and a comparison to existing approaches. Ourmethod was shown to the competition, with enrichment improving results significantly,enhancing prediction and representation explainability and yielding intuitive and predominantly edge-case errors. Subsequently, the system was extended with different neuraland conventional embeddings as well as proposed dimensionality reduction and clustering capabilities, all evaluated on the automatic summarization task over on encyclopedic articles.Finally, we utilized the findings of this study into semantically enriched Hate Speech Detection system to be used in the Industry. The thesis is concluded by a summary of the totality of research work conducted, along with proposed directions of future study.Στην παρούσα μελέτη εξετάζονται αναπαραστάσεις δεδομένων για προβλήματα Mηχανικής Mάθησης, με έμφαση τον εμπλουτισμό τους με πληροφορία από πηγές γνώσεων.Αρχικά, εκπονήθηκε βιβλιογραφική μελέτη για αναπαραστάσεις δεδομένων κειμένου, εικόνας και ήχου στο πρόβλημα της κατηγοριοποίησης. Έγινε συγκριτική καταγραφή και κατάταξη των μεθόδων σε α) αναπαραστάσεις χαμηλού επιπέδου και τοπικής εφαρμογής προτύπων β) συνδυασμός τοπικών χαρακτηριστικών με μεθόδους συνένωσης, συνδυασμού και μετασχηματισμού και γ) μοντέλα βαθιάς εκμάθησης αναπαραστάσεων. Έγινε μία σύγκριση θετικών και αρνητικών χαρακτηριστικών μεταξύ των τεχνικών και εντοπίστηκαν περιοχές βελτίωσης / επέκτασης τους για αναβάθμιση του σημασιολογικού περιεχομένου της παραγόμενης αναπαράστασης.Στη συνέχεια, έγιναν ερευνητικές προτάσεις / επεκτάσεις μεθόδων αναπαράστασης σε διαφορετικά προβλήματα μηχανικής μάθησης και ποικίλων δεδομένων εισόδου σε στοχευμένες μελέτες και πειραματικές αξιολογήσεις. Συγκεκριμένα μελετήθηκαν διαφορετικές αναπαραστάσεις κειμένου για πρόβληματα όπως η Ανίχνευση Ρητορικής Μίσους σε δεδομένα από κοινωνικά δίκτυα και η Αυτόματη Εξαγωγή Περιλήψεων σε ποικιλία τύπου κειμένων(δημοσιογραφικά / εγκυκλοπαιδικά άρθρα, αξιολογήσεις ηλεκτρονικών παιχνιδιών, κείμενα σε ιστοσελίδες κοινωνικής δικτύωσης). Επιπλέον, έγινε μελέτη αναπαραστάσεων για Συσταδοποίηση / Εντοπισμό Γεγονότων σε κείμενο, καθώς και για την κατηγοριοποίησηβίντεο με αξιοποίηση αναπαράστασης εικόνας και ήχου. Το σύνολο της βιβλιογραφικής / ερευνητικής μελέτης ανέδειξε κατευθύνσεις βελτίωσης μεθόδων αναπαραστάσεων με τη χρήση υπάρχουσας πληροφορίας από δομημένες και υψηλής ποιότητας πηγές γνώσεων – τεχνική που είναι απούσα ή ελλιπής στη βιβλιογραφία.Στη βάση αυτή, δόθηκε μία περιγραφή από πιθανά οφέλη που μπορεί να φέρει ο εμπλουτισμός με πληροφορία από εξωτερικές πηγές γνώσης. Επιπλέον, εκπονήθηκε βιβλιογραφική μελέτη με έμφαση σε μεθόδους εμπλουτισμού αναπαραστάσεων για διαφορετικούς τύπους δεδομένων (κείμενο, εικόνα και ήχος) και πηγών γνώσεων (οντολογίες, λεξικά, οπτικοακουστικές ιεραρχίες, κ.α.), για το πρόβλημα της ταξινόμησης. Επιπλέον, καταγράφηκαν λεπτομερώς υπάρχουσες μέθοδοι εμπλουτισμού και κατατάχθηκαν σε τρεις κατηγορίες: α) μέθοδοι εμπλουτισμού εισόδου με δεδομένα γνώσης β) μετασχηματισμός /συνδυασμός αναπαραστάσεων καθοδηγούμενος από γνώση και γ) συστήματα γνώσης βαθιάς μάθησης. Βάσει αυτής της μελέτης και αναγνωρίζοντας ελλείψεις και περιοχές βελτίωσης στην παρούσα βιβλιογραφία, προτάθηκε μία τεχνική εμπλουτισμού βασισμένη στον εμπλουτισμός εισόδου σε δεδομένα βαθιών αναπαραστάσεων, πάνω στην οποία επικεντρώθηκαν οι ερευνητικές προσπάθειες της διατριβής. Με γνώμονα τα παραπάνω, μελετήθηκαν και προτάθηκαν δύο νέοι τρόποι εμπλουτισμού αναπαραστάσεων, δίνοντας έμφαση σε δεδομένα κειμένου. Αρχικά, αναπτύχθηκε ένα σύστημα νευρωνικών αναπαραστάσεων λέξεων, εμπλουτισμένων με σημασιολογική πληροφορία από την ιεραρχική οντολογία Wordnet. Ερευνήθηκαν διαφορετικοί τρόποι εμπλουτισμού της εισόδου, τρόποι εξαγωγής σημασιολογίας από την οντολογία, τεχνικών διάχυσηςβάρους στα δεδομένα γνώσης και προσεγγίσεων συνδυασμού της με τα χαρακτηριστικά περιεχομένου από το κείμενο. Έγινε πειραματική αξιολόγηση μεγάλης κλίμακας, ανάλυση στατιστικής σημαντικότητας και σύγκριση με άλλα συστήματα κατηγοριοποίησης και εμπλουτισμού, με χρήση μεγάλων συλλογών κειμένων ποικίλης θεματολογίας και χαρακτηριστικών. Η μέθοδος αποδίδει καλύτερα από υπάρχοντα συστήματα, και κατασκευάζει αναπαραστάσεις και μοντέλα μάθησης που είναι πιο αποδοτικά και παράγουν πιο εύκολα ερμηνεύσιμες προβλέψεις και χαρακτηριστικά. Στη συνέχεια, το παραπάνω σύστημα επεκτάθηκε με επιπλέον τεχνικές συμβατικών και νευρωνικών αναπαραστάσεων, διαφορετικές μεθόδους μείωσης διάστασης και τεχνικών συσταδοποίησης. Έγινε πειραματική αξιολόγηση στο πρόβλημα της αυτόματης εξαγωγής περιλήψεων σε δεδομένα από εγκυκλοπαιδικά άρθρα, η οποία επιβεβαίωσε τη συνεισφορά της προτεινόμενης μεθόδου εμπλουτισμού και ανέδειξε επιπλέον ενδιαφέροντα ευρήματα.Τέλος, το σύνολο των ευρημάτων της μελέτης χρησιμοποιήθηκε για την κατασκευή ενός συστήματος εντοπισμού ρητορικής μίσους για αξιοποίηση στην βιομηχανία. Η παρούσα διατριβή κλείνει συνοψίζοντας το συνολικού ερευνητικό έργο και προσφέροντας κατευθύνσεις μελλοντικής επέκτασης της μελέτης που εκπονήθηκε

    Πολυτροπική κατηγοριοποίηση βίντεο με βαθιά νευρωνικά δίκτυα

    No full text
    Η πρόσφατη ραγδαία αύξηση και αφθονία των πολυμεσικών δεδομένων καθιστά αναγκαία τη χρήση αυτόματων εργαλείων κατηγοριοποίησης σε σχετικές εφαρμογές μηχανικής μάθησης. H πλούσια πολυτροπικότητα (multimodality) των τελευταίων παρέχει πλήθος πηγών πληροφορίας προς χρήση και υποβοήθηση της διαδικασίας κατηγοριοποίησης. Στην παρούσα μελέτη εξετάζουμε ερευνητικά ερωτήματα σχετικά με την επιρροή της οπτικής, ακουστικής και χρονικής πληροφορίας ενός βίντεο, στην κατηγοριοποίησή του. Εξάγουμε καρέ και φασματογράμματα, υιοθετώντας μία βαθιά αναπαράσταση βασισμένη στο συνελικτικό νευρωνικό δίκτυο Alexnet και αξιολογούμε πολυτροπικές προσεγγίσεις early fusion μεθόδων, που συγχωνεύουν το οπτικό και το ακουστικό κανάλι σε μία πολυτροπική αναπαράσταση. Επιπλέον, εξετάζονται μέθοδοι προδιάθεσης (bias) οπτικών δεδομένων με τη συγχωνευμένη ακουστική πληροφορία, εμπνευσμένες από τεχνικές περιγραφή εικόνας. Τέλος, εφαρμόζουμε συγχώνευση των σκορ κατηγοριοποίησης σε επίπεδο βίντεο, μέσω γραμμικού συνδυασμού και συγχώνευσης μεγίστου. Για τη χρονική πληροφορία, συγκρίνουμε τη συγχώνευση πληροφορίας (αρχιτεκτονική FC βασισμένη στο νεuρωνικό ταξινομητή πλήρους σύνδεσης και της συγχώνευσης softmax) από το επίπεδο των καρέ σε αυτό ολόκληρης της αλληλουχίας, και της αρχιτεκτονικής LSTM, που ενσωματώνει απευθείας χρονικές αλληλοεξαρτήσεις της εισόδου. Εφαρμόζουμε τα δύο μοντέλα σε οπτική και ακουστική πληροφορία, καθώς και στις τεχνικές πολυτροπικής κατηγοριοποίησης. Στη συνέχεια εκτελούμε πειραματική αξιολόγηση σε πολλαπλά σύνολα δεδομένων για να αξιολογήσουμε τις παραπάνω μεθόδους και τα ερευνητικά ερωτήματα. Τα αποτελέσματα δείχνουν πως η LSTM τεχνική υπερτερεί της FC σε οπτικά δεδομένα, ενώ το αντίθετο ισχύει σε δεδομένα φασματογραμμάτων ήχου. Η επιλογή χρήσης της οπτικής ή της ακουστικής πληροφορίας εξαρτάται από το σύνολο δεδομένων και τον τύπο των κλάσεων, όπως φαίνεται από την συγκριτικά καλύτερη απόδοση του ήχου στο Audioset, και την υποδεέστερη απόδοση στα υπόλοιπα σύνολα δεδομένων, στα πολυτροπικά πειράματα. Σχετικά με τις πολυτροπικές τεχνικές, η απλή συγχώνευση σε επίπεδο βίντεο μέσω γραμμικού συνδυασμού δίνει βέλτιστα αποτελέσματα παρά τα πρακτικά μειονεκτήματά της, ενώ η συγχώνευση μεγίστου δίνει έχει απόδοση πολύ κοντά στις μη πολυτροπικές προσεγγίσεις. Η απλή συγχώνευση μέσου όρου και επιθέματος των οπτικοακουστικών δεδομένων δίνει βέλτιστα αποτελέσματα στην FC και LSTM τεχνική αντίστοιχα. Αντίθετα, οι τεχνικές προδιάθεσης αλληλουχιών δεν φαίνεται να εφαρμόζονται με την ίδια επιτυχία που έχουν στην περιγραφή εικόνας. Επιβεβαιώνουμε τη συμπληρωματικότητα τού οπτικού και ακουστικού καναλιού, με τις πολυτροπικές τεχνικές να υπερτερούν των προσεγγίσεων με μία πηγή πληροφορίας, εξάγουμε βασικές κατευθύσεις για επίτευξή αυτής της βελτίωσης, και προσφέρουμε ένα baseline για την απόδοση πολυτροπική τεχνικών, ανά σύνολο δεδομένων που εξετάζουμε.The recent abundance of video data, automatic video classification tools have become important components in multiple video machine learning tasks. Given the rich multimodal qualities of video, it offers a variety of information sources that can be utilized to further aid classification. In this study we examine research questions adhering to the effect of the visual, audio and temporal video modalities on video classification. To process the visual and audio modalities, we extract frame and audio spectrogram sequences from random video segments. We adopt a shared deep representation approach for the visual and audio data, using deep features extracted from a fully-connected layer of Alexnet-based DCNN. Regarding multimodal fusion, we examine a variety of early direct-fusion methods, i.e. approaches that aggregate information from the visual and audio modality into a single, multimodal representation. Specifically, we use averaging, concatenation and max pooling. In addition, we attempt to apply sequence bias methods borrowed from image description, which we call input-bias and state-bias fusion. Finally, we perform a late fusion of video-level classification scores, examining linear combination and max pooling of the marginal predictions. Regarding the temporal information present in video data, we examine its contribution by comparing the fully-connected, feed-forward softmax classification layer – which processes input sequence in an aggregation-based manner – to the sequence-aware LSTM model that is sensitive to and able to model temporal input interdependencies. We apply these approaches (named FC and LSTM workflows, respectively) both in separate visual and audio modality data and in the multimodal fusion schemes. A set of experimental evaluations are performed on multiple video classification datasets to examine the performance of each research question. The experimental results indicate that the LSTM workflow performs better on visual data, with the FC approach faring better on the audio modality. The relationship between the visual and audio modalities relies on the underlying dataset and annotation, as reflected by the superiority of the audio modality in the audio-inclined Audioset, and its inferior results, compared to the visual modality, in the other datasets in the multimodal experiments. Regarding multimodal fusion approaches, results show that simple late late-video linear combination fusion works best, despite its practical disadvantages with the maximum pooling variant performing close to single-modality baselines. Excluding that, averaging or concatenation of modality encodings works best for the FC and LSTM workflows respectively, while the sequence-bias approaches do not perform as well as in the image description task. We verify the complementarity of the visual and audio modalities, with multimodal techniques outperforming single-modality baselines per dataset, extract guidelines towards achieving it and establish a multimodal DNN baseline per dataset and workflow

    The Financial Narrative Summarisation Shared Task (FNS 2020)

    No full text
    This paper presents the results and findings of the Financial Narrative Summarisation shared task (FNS 2020) on summarising UK annual reports. The shared task was organised as part of the 1st Financial Narrative Processing and Financial Narrative Summarisation Workshop (FNP-FNS 2020). The shared task included one main task which is the use of either abstractive or extractive summarisation methodologies and techniques to automatically summarise UK financial annual reports. FNS summarisation shared task is the first to target financial annual reports. The data for the shared task was created and collected from publicly available UK annual reports published by firms listed on the London Stock Exchange (LSE). A total number of 24 systems from 9 different teams participated in the shared task. In addition we had 2 baseline summarisers and additional 2 topline summarisers to help evaluate and compare against the results of the participants

    The Financial Narrative Summarisation Shared Task FNS 2021

    No full text
    This paper presents the results and findings of the Financial Narrative Summarisation Shared Task on summarising UK annual reports. The shared task was organised as part of the Financial Narrative Processing 2021 Workshop (FNP 2021 Workshop). The shared task included one main task which is the use of either abstractive or extractive automatic summarisers to summarise long documents in terms of UK financial annual reports. This shared task is the second to target financial documents. The data for the shared task was created and collected from publicly available UK annual reports published by firms listed on the London Stock Exchange. A total number of 10 systems from 5 different teams participated in the shared task. In addition, we had two baseline and two topline summarisers to help evaluate the results of the participating teams and compare them to the state-of-the-art systems

    JedAI^3 : beyond batch, blocking-based Entity Resolution

    No full text
    JedAI is an open-source toolkit that allows for building and benchmarking thousands of schema-agnostic Entity Resolution (ER) pipelines through a non-learning, blocking-based end-to-end workflow. In this paper, we present its latest release, JedAI3 , which conveys two new end-to-end workflows: one for budgetagnostic ER that is based on similarity joins, and one for budgetaware (i.e., progressive) ER. This version also adds support for pre-trained word or character embeddings and connects JedAI to the Python data analysis ecosystem. Overall, these enhancements provide JedAI with features offered by no other ER tool, especially in the schema- and domain-agnostic context

    Proceedings of the 1st Joint Workshop on Financial Narrative Processing and MultiLing Financial Summarisation

    No full text
    Welcome to the 1st Joint Workshop on financial Narrative Processing and MultiLing financial Summarisation (FNP-FNS 2020) held at COLING 2020 in Barcelona, Spain. For future readers, it is worth noting the that workshop as well as the main conference were held as virtual events due to travel restrictions caused by the COVID-19 pandemic. Following the success of the First FNP 2018 at LREC’18 in Japan, the Second FNP 2019 at NoDaLiDa 2019 in Finland and as well as the Multiling 2019 financial narrative Summarisation task at RANLP in Bulgaria, we have received a great deal of positive feedback and interest in continuing the development of the financial narrative processing field, especially from our shared task participants. This has resulted in a collaborative workshop between the FNP and MultiLing workshop series to co-organise the 1st Joint Workshop on financial Narrative Processing and MultiLing financial Summarisation (FNP-FNS 2020). The 1st FNP-FNS workshop achieved our aim of supporting the rapidly growing area of financial text mining. We ran three different shared tasks focusing on text summarisation, structure detection and causal sentence detection, namely FNS, FinToc and FinCausal shared tasks respectively. The shared tasks attracted more than 100 teams from different universities and organisations around the globe. The shared tasks resulted in the first large scale experimental results and state of the art methods applied mainly to financial data. This shows the importance and growth of this field and we want to continue to be associated with top NLP venues. The joint workshop focused mainly on the use of Natural Language Processing (NLP), Machine Learning (ML), and Corpus Linguistics (CL) methods related to all aspects of financial text summarisation, text mining and financial narrative processing (FNP). There is a growing interest in the application of automatic and computer-aided approaches for extracting, summarising, and analysing both qualitative and quantitative financial data. In recent years, previous manual small-scale research in the Accounting and Finance literature has been scaled up with the aid of NLP and ML methods, for example to examine approaches to retrieving structured content from financial reports, and to study the causes and consequences of corporate disclosure and financial reporting outcomes. The workshop organisers collaborated with two Artificial Intelligence (AI) firms: Fortia financial Solutions (www.fortia.fr) and Yseop (www.yseop.com). Both firms are pioneers in Artificial Intelligence, NLP and Natural Language Generation (NLG). Both firms work on applying those methods to automatically analyse and extract from financial documents and disclosures

    GeoSensor: Semantifying Change and Event Detection over Big Data

    No full text
    GeoSensor is a novel, open-source system that enriches change detection over satellite images with event detection over news items and social media content. GeoSensor combines these two orthogonal operations through state-of-the-art Semantic Web technologies. At its core lies the open-source, semantics-enabled Big Data infrastructure developed by the EU H2020 BigDataEurope project. This allows GeoSensor to offer an on-line functionality, despite facing three major challenges of Big Data: Volume (a single satellite image typically occupies a few GBs), Variety (its data sources include two different types of satellite images and various types of user-generated content) and Veracity, as the accuracy of the end result is crucial for the usefulness of our system. We present GeoSensor's architecture in detail, highlighting the advantages of using semantics for taking the most of the knowledge extracted from news items and Earth Observation products. We also verify GeoSensor's efficiency through a preliminary experimental study
    corecore